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基于 HNC 句 类 的 社区 问答 系统 问 句 检索 模型 构建 
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(大 连理 工大 学 管理 与 经 济 学 部 , 辽宁 大 连 116024) 


摘 要 : 社区 问答 系统 中 充斥 着 大 量 的 噪声 , 给 用 户 检 索 信 息 造 成 麻烦 , 以 往 的 问 句 检索 模型 大 多 集中 在 词语 层面 。 
针对 以 上 问题 构建 句子 层面 的 问 句 检索 模型 。 新 模型 基于 概念 层次 网 络 (HNC) 理 论 当 中 的 句 类 知识 , 从 和 句子 的 语 用 、 
语法 和 语义 三 个 层面 计算 问 句 间 相 似 度 。 通 过 问 句 分 类 算法 确定 查询 问 句 和 候选 问 句 的 问 名 类别， 得 到 问 句 间 的 语 
用 相似 度 ， 利 用 名 类 表达 式 的 结构 和 语义 块 组 成 分 别 计算 问 句 间 的 语法 及 语义 相似 度 。 在 真实 数据 集 上 的 实验 表明 
基于 HNC 名 类 的 新 模型 提高 了 问 句 检索 结果 的 准确 性 。 
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Construction of question retrieval model in community question answering system based on 
HNC sentence-category 


Wang Yu Wang Fang+ 
(Faculty of Management & Economics, Dalian University of Technology, Dalian Liaoning 116024, China) 


Abstract: Community question answering system causes trouble for users to retrieve information due to useless information. 
Most of the previous question retrieval models focused on the word level. In order to solve the above problems, this paper 
proposes a question retrieval model at the sentence level. Based on the sentence-category of Hierarchical Network of 
Concept (HNC) theory, the new model calculated similarities between questions from the pragmatic, grammatical and 
semantic levels of the sentence. The model used the question classification algorithm to determine the categories of query 
question and candidate question, and thus obtained pragmatic similarity between questions. It used the sentence expression 
structure and the sentence semantic block to calculate grammatical and semantic similarities. Experiments on real data sets 
show that the new model based on HNC sentence-category improves the accuracy of question retrieval results. 

Key words: community question answering system; question retrieval; hierarchical network of concept (HNC) theory; 
sentence category analysis; similarity calculation 


社区 问答 系统 的 检索 对 象 是 问 句 和 管 案 ， 它 长 度 较 一 般 


0 引言 文档 短 ， 存 在 数据 稀疏 的 问题 ， 并 且 内 容 还 有 自然 语言 表述 
随 着 互联 网 的 不 断 发 展 ， 网 络 上 积累 了 大 量 的 信息 ， 普 。 ”随意 ， 大 部 分 词语 有 着 一 词 多 义 和 多 词 同 义 现象 ， 致 使 无 法 
通用 户 可 以 通过 搜索 引擎 获取 想 要 的 信息 ， 但 由 于 搜索 引擎 ”通过 词 项 严格 匹配 (如 向 量 空间 模型 外) 加 以 识别 。 


返回 的 是 一 系列 相关 文档 而 不 是 用 户 关心 问题 的 答案 ， 需 要 为 了 解决 上 述 问 题 ，Song 等 人 BI 将 问题 的 语义 信息 和 统 
用 户 继续 甄别 信息 ， 同 时 用 户 也 不 能 用 自然 语言 描述 自己 的 计 信 息 相 结 合 , 综合 计算 问 句 相似 度 大 小 ; Cai 等 人 中 使 用 洪 
题 ， 不 能 形成 完整 语义 的 稀 跑 关键 词 序列 也 导致 搜索 引擎 ”在 语义 信息 来 解决 问 句 检索 中 词汇 空缺 的 问题 ， 通 过 潜在 语 
的 检索 效果 一 般 。 义 信息 消除 词汇 语义 鸿沟 ; Jeon 等 人 口 将 语言 模型 应 用 到 社 
问答 系统 提供 了 一 种 新 的 用 户 问 题 到 确切 答案 的 信息 检 区 问答 系统 问 句 检索 上 ， 采 用 一 元 模型 对 社区 型 问答 中 的 问 
索 过 程 ， 简 化 了 不 确定 文档 阅读 查找 的 过 程 ， 一 定 程 度 上 解 ” 答对 进行 建 模 ， 用 于 相似 问 句 的 发 现 工作 ; Xue 等 人 [9 在 语 
决 了 搜索 引擎 的 问题 。 随 着 Web 2.0 的 发 展 ， 普 通用 户 逐 渐 言 模型 基础 上 提出 了 基于 翻译 模型 的 语言 模型 ， 较 好 地 解决 
从 网 络 内 容 的 接收 者 ， 变 为 网 络 内 容 的 提供 者 ， 此 时 网 络 上 了 检索 过 程 中 的 词 不 匹配 问题 ; 文献 [7] 通 过 获得 问 句 的 潜在 
充斥 着 大 量 的 用 户 生成 内 容 (user generated content, UGC) 主题 信息 ， 提 高 翻译 模型 的 检索 性 能 。 但 由 于 翻译 模型 的 准 
内 容 ， 而 问答 系统 的 主要 参与 者 也 变 成 了 社区 用 户 ， 形 成 了 确 性 易 受 训练 语 料 集 及 文本 语义 表达 的 影响 ， 致 使 检索 效果 
社区 问答 系统 。 以 中 文 问答 社区 “ 知 乎 ”为 例 ， 从 开放 至 今 已 。 不 够 理想 ,。 夏 远 远 等 人 [引入 概念 层次 网 
累计 超过 1 000 万 个 提问 以 及 3 400 万 个 回答 ， 大 量 的 问题 。 network of concept, HNC) 中 的 词语 知识 库 修正 翻译 概率 ， 构 
被 解答 ， 成 为 知识 较为 集中 且 有 价值 的 网 络 资源 。 如 何 从 这 ” 建 了 新 的 问 句 检 索 模 型 ， 并 给 出 问 句 检索 模型 的 实现 算法 。 
些 大 量 的 历史 问答 资源 中 找到 与 用 户 问 题 相似 或 者 相关 的 内 问 句 检索 模型 的 着 重点 是 考察 句子 的 相似 度 久 中。 之 前 
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容 ， 成 为 问答 系统 研究 的 一 项 主要 内 容 。 通 过 相似 问题 的 检 ，” ”的 许多 问 句 检 索 模型 集中 在 问 句 的 词汇 匹配 层面 ， 如 果 忽 视 
索 可 以 减少 用 户 获 得 答案 的 等 待 时 间 以 及 减轻 相似 内 容重 复 问 名 的 语 用 特点 ,简单 的 将 问 句 看 做 一 系列 词汇 序列 的 集合 ， 
提问 造成 的 系统 见 余 的 问题 趾 。 可 能 会 导致 根据 问 句 检索 得 到 的 问题 相应 的 答案 并 不 是 用 户 


收 稿 日 期 : 2018-11-24; 修 回 日 期 : 2019-01-16 
作者 简介 : 王 宇 〈1959-)， 男 ， 吉 林 通 化 人 ， 教 授 ， 硕 导 ， 博 士 ， 主 要 研究 方向 为 文本 挖掘 、 自 然 语言 理解 ; 王 芳 (1995-)， 女 〈 满 ) (通信 作者 )， 
辽宁 葫芦 岛 人 ， 硕 士 研究 生 ， 主 要 研究 方向 为 文本 挖 据 、 自 然 语 言 理解 《705843314@qq.com). 


201905.00034v1 


chinaXiv 


录用 定稿 


要 的 。 社 区 问答 系统 中 具有 
FE 富 的 可 利用 信息 。 文 献 [1 
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最 后 按照 平均 的 方式 计算 最 终 句子 的 相似 度 。 该 方法 虽然 利 


属性 以 及 问 句 的 答案 
2] 利 用 提问 者 的 社交 网 络 属性 


向 六 


查询 问 句 内 容 构 建 问 句 的 潜 
j 户 社交 网 络 信 息 进行 整合 
问 句 类 别 是 从 一 般 语 用 的 
个 问题 类 别 的 问题 比分 属 不 同 
相同 的 答案 。 


题 的 特征 ， 


> 洪 近 深 牧 六 


基于 问题 语法 树 


认为 问 句 相似 度 计算 需 在 考虑 
时 需要 考虑 问 句 答案 的 相似 度 
限制 问 名 的 答案 ， 因 此 在 问 名 


文献 [13] 从 词法 、 语 法 、 


向 量 机 (SYM) 进 行 问题 分 类 ， 提 高 了 ? 


在 表示 ， 将 问题 内 容 文 本 信 
， 对 问题 之 间 的 相似 性 进行 : 


=r 亚 


用 了 HNC 理论 的 相关 知识 ， 但 忽略 了 语义 块 构成 上 的 多 种 
羽 素 ， 因 此 是 不 全 面 的 。 
HNC 句 类 分 析 的 最 终 目 的 是 为 了 获得 句子 的 句 类 表达 


角度 描述 问 句 类 型 ， 属 于 同一 


式 , 但 由 于 HNC 句 类 分 析 的 有 效 性 需要 依赖 于 HNC 知识 库 ， 


问题 类 别 问 题 的 更 有 可 能 具有 
语义 三 个 层 再 
[构建 语义 核 函 数 ， 利 用 支持 
确 率 。 田 卫 东 等 人 [5] 
问 句 本 身 相 似 度 的 基础 上 ， 同 
， 而 问 句 类 别 一 定 程度 上 可 以 
相似 度 计 算 时 加 入 了 问 句 类 型 


相似 度 计 算 这 个 维度 ， 提 供 了 
本 文采 用 HNC 理论 的 名 
的 语法 语义 信息 ， 从 计算 机 自 
的 方法 确定 问 句 类 型 ， 在 句子 


问 句 相似 度 计算 的 新 思路 。 
类 分 析 方 法 获取 问 句 更 深层 次 


文献 [18] 所 提出 的 句 类 分 析 算 法 在 实际 操作 中 存在 一 定 的 局 
限 性 。 考 虑 到 句 类 是 由 语义 块 组 成 ， 语 义 块 作为 语义 的 底层 
构成 单位 ， 在 承担 语义 作用 的 基础 上 ， 也 有 其 语 用 层面 上 的 
作用 ， 利 用 已 知 句子 HNC 句 类 表达 式 ， 通 过 词性 标注 
的 相似 性 推导 另 一 未 知 句子 的 句 类 表达 式 。 对 于 句子 “美国 军 
方向 波斯 尼 亚 战争 的 受害 者 空投 救援 物资 ”, 作为 一 种 物 转移 
句 有 人 句 类 表达 式 T27=T2A+1+REC+T2+T2C ,其 中 724 表示 物 
转移 的 发 起 者 (美国 军 方 )，! 是 转移 的 方向 ， REC 代表 了 转 
移 接收 者 (波斯 尼 亚 受害 者 )，72 为 特征 要 素 ( 空 投 )，7T2C 则 


动 化 角度 出 发 ， 利 用 层次 分 析 


表示 转移 内 容 ( 救 援 物资 )。 同 时 该 句 有 词性 标注 序列 如 : ns( 美 


层面 分 别 从 语法 、 语 义 和 语 用 


个 方面 共同 构建 问 句 检 索 模 
1 HNC 句 类 分 析 


HNC( hierarchical network of concepb) 理 论 是 中 国 科学 院 


型 ， 提 高 检索 模型 的 准确 度 。 


辐 )，n( 军 方 )，p( 向 )，ns( 波 斯 尼 亚 )，n( 战 争 )，n( 受 害 者 )， 

v( 空 投 )，n( 救 援 物 资 )， 有 如 表 1 所 示 的 对 应 关系 ， 这样 建立 
了 名 类 表达 式 和 句子 的 词性 序列 的 关系 。 

通过 收集 已 经 进行 HNC 名 类 分 析 的 句子 ， 获 取 句 类 表 


BS 


声学 所 黄 曾 阳 研 究 员 提出 的 
向 整个 自然 语言 来 描述 大 脑 认 
构 分 为 局 部 和 全 局 两 个 联想 脉 
层面 的 概念 表述 体系 ， 全 局 联 


种 自然 语言 处 理 体 系 09， 它 面 
知 结构 的 具体 模式 ， 将 认 知 结 
络 ， 其 中 局 部 联想 脉络 是 词汇 
想 脉 络 是 语句 及 篇 章 层面 的 联 


想 0， 主 要 包括 语义 块 和 名 类 理论 ， 语 义 块 从 语言 深层 描述 


一 个 句子 ， 解 决 了 从 词 或 者 短 


语 层面 难以 界定 句子 语义 的 问 


题 。 任 意 自 然 语言 句子 都 可 以 
表 ， 句 类 表达 式 由 语义 块 组 成 
见 的 HNC 句 类 有 作用 句 、 过 
从 语法 层面 揭示 了 句子 的 语义 


用 一 种 形式 上 的 句 类 表达 式 代 
， 即 语义 块 是 句 类 的 函数 。 党 
程 句 、 转 移 句 等 。 句 类 表达 式 
块 序列 ， 相 似 度 高 的 句子 往往 


9 相同 的 语义 块 序列 。 因 此 
以 由 问 句 句 类 表达 式 相似 度 得 
者 词汇 序列 ， 甚 至 是 句子 ， 但 
似 度 度量 就 可 以 通过 词汇 语义 
层面 也 有 一 套 词 汇 概念 语义 网 


问 句 语法 层面 的 相似 度 大 小 可 
出 。 语 义 块 可 以 是 一 个 词汇 或 
都 是 由 词汇 组 成 ， 语 义 块 的 相 
相似 度 代表 , HNC 理论 在 词汇 
络 ， 在 表达 词汇 语义 的 完备 性 


上 有 比较 优异 的 表现 ， 问 句 语 
念 语 义 来 确定 。 


义 层 面相 似 度 可 以 由 词汇 的 概 


HNC 构建 了 一 套 新 式 的 自然 语言 处 理 体 系 ，HNC 系统 


在 语义 分 析 中 可 以 通过 句 类 分 
将 获得 包括 主 辅 语义 块 在 内 的 
知识 为 计算 机 自动 化 的 句子 相 


析 完 成 完整 的 语义 分 析 过 程 ， 
一 系列 句 类 知识 ， 这 样 的 句 类 
关 计算 提供 了 便利 的 条 件 。 句 


类 分 析 得 到 的 句 类 表达 式 是 名 
共有 57 种 基本 句 类 以 及 3 192 
全 部 自然 语言 的 句子 语法 搭配 
相应 语义 块 则 包含 相应 的 语义 
构成 单位 命名 为 语义 块 。 语 义 
或 者 一 个 短语 甚至 于 一 个 句子 


法 层面 的 句子 分 析 , HNC 聚 类 
种 混合 句 类 , 完整 地 描述 几乎 
现象 -HNC 组 成 句 类 表达 式 的 
信息 。 HNC 将 句子 下 一 级 语义 
块 的 范围 很 广 ， 可 以 是 一 个 词 
。 语 义 块 按 照 在 句子 中 起 的 作 


达 式 ， 之 后 进行 句子 词汇 序列 的 词性 标注 ， 将 这 部 分 句子 作 
为 先 验 知识 ， 通 过 句子 词性 序列 的 相似 度 来 获得 没有 进行 句 
类 分 析 句 子 的 句 类 表达 式 。 

接 下 来 将 利用 HNC 句 类 分 类 分 析 获 得 问 句 语法 和 语义 
两 部 分 句子 信息 以 及 前 面 提 到 的 问 句 类 型 代表 的 语 用 信息 ， 
综合 构建 问 句 检索 模型 。 


表 1 语义 块 与 词性 序列 的 对 应 
Table 1 Correspondence between semantic block and 
part of speech sequence 
语义 块 词性 序列 
T2J ns,n 
l Pp 
REC ns n 
12 Vy 
72C n 


2 ”基于 HNC 句 类 分 析 的 问 句 检 索 模 型 


根据 前 文 的 问 名 类 别 和 问 句 语义 的 相关 分 析 ， 从 语 用 、 
语法 和 语义 三 个 层次 综合 构建 问 句 检索 模型 。 检 索 模 型 的 有 
效 性 需要 通过 检索 结果 排序 的 准确 性 来 验证 ， 一 般 在 信息 检 
索 的 任务 中 ， 通 过 MRR、MAP、AP@1 等 指标 来 说 明 检索 
效果 的 好 坏 。 

AP@1(average precision): 关于 特定 查询 的 检索 排序 结果 
中 ， 相 关 问 名 在 第 一 位 的 平均 百分比 。 

MAP(mean average precision): 表示 返回 结果 的 平均 准确 
率 ,本 实验 中 计算 每 个 查询 返回 的 前 10 个 结果 的 平均 准确 率 ， 
即 MAP10。 
MRR(mean reciprocal rank): 在 保证 MAP 检索 准确 性 的 


用 分 为 主语 义 块 和 辅 语义 块 。3 
作用 者 、 对 象 和 内 容 ; 
途径 、 比 照 、 条 件 、 原 因 、 结 
做 句 类 分 析 的 工作 中 ， 陈 鸿 ( 
` 句 类 假设 \ 句 类 检验 以 及 


E 语 义 块 分 别 命名 为 特征 要 素 、 


甫 语义 块 有 七 种 , 分 别 为 手段 、 工 具 、 


果 和 目的 。 在 利用 HNC 理论 
将 HNC 句 类 分 析 分 为 语义 块 
语义 块 构成 分 析 等 多 个 模块 ， 


并 实现 了 完整 的 HNC 句 类 分 析 的 算法 。 池 哲 洁 0 将 句 类 分 


析 的 结果 分 为 主 辅 语义 块 及 表 
义 层 面 计算 句子 相似 度 ， 但 并 
的 


司 时 ， 还 要 关注 检索 结果 的 排序 顺序 , MRR 是 加 入 排序 顺序 
影响 后 的 检索 结果 准确 率 。 
设计 一 个 代表 检索 模型 的 排序 公式 ， 是 验证 模型 有 效 性 
的 一 个 必 不 可 少 的 步骤 。 本 章 设 计 了 一 种 检索 模型 的 排序 公 
式 ， 新 的 问 句 检索 的 排序 机 制 如 下 : 

Sims(Q,C) = ASima (Q,C) + BSimo(Q,C)+ySimm(Q,C) (1) 


层 表 达 式 相似 度 层面 和 深层 语 
未 考虑 辅 语义 块 对 句子 相似 度 


4 贡献 。 史 燕 驯 通过 句 类 分 析 ， 将 语义 块 对 应 计算 相似 度 ， 


其 中 : 2.C 分 别 代 表 了 问 名 检索 中 的 查询 问 句 和 候选 问 句 ; 
Simm 表示 2C 的 总 体 相似 度 ;， Si 、 Simse 、 Simo 分 别 代表 
48,C 的 问 句 类 型 相似 度 、 语 法 相似 度 以 及 语义 相似 度 ; a、p、 


201905.00034v1 


chinaXiv 


录用 定稿 王 字 ， 
y 分 别 为 各 分 项 的 调节 参数 ， 表 示 问 句 查 询 中 三 种 相似 度 所 
占 权 重 。 算 法 流程 如 图 1 所 示 。 

输入 查询 问 句 


| 坦 | 


问 名 类 型 识别 HNC 句 类 分 析 
计算 问 句 类 型 计算 句 类 表达 计算 语义 块 相 
相似 度 | 式 相似 度 似 度 
| 查询 问 名 与 候选 问 | 
| 名 的 相似 度 大 小 | 
图 1 算法 流程 
Fig. 1 Algorithm flowchart 


下 面 分 别 介绍 各 部 分 的 相似 度 计 算 过 程 。 


2.1 问题 类 型 相似 度 度量 


| 


传统 问答 系统 的 中 的 问题 多 是 以 事实 类 问题 呈现 , 如 第 
立 获 得 诺 贝 尔 奖 的 中 国人 是 谁 ”“ 什 么 是 防火 墙 ”等 , 但 社 
问答 系统 中 的 问题 从 语 用 的 角度 看 


式 ， 文 献 


多 种 问题 


将 社 
丈 、 观 点 、 

问题 的 管 案 焦点 ， 如 过 程 类 
A 


区 问答 系统 的 问题 形式 分 为 了 定义 、 事 实 、 过 程 、 
是 非 和 描述 等 七 种 类 型 。 


问 句 的 类 型 确定 了 相 


问题 答案 和 定义 类 问题 答案 是 


不 同 的 ， 由 于 问 句 检索 的 


问题 类 型 所 代表 语 用 信息 对 


火种 时 米酒 怠 风 


新 提交 问题 相似 的 问题 ， 进 而 获得 新 提交 问题 的 答案 ， 因 


目的 是 在 历史 问答 中 找到 与 用 


问 句 检索 也 有 着 比较 重要 的 意 


输出 : 


a) 
b) 


较 ， 头 


c) 
2.2 


语义 
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等 : 基于 HNC 句 类 的 社区 问答 系统 问 句 检索 模型 构建 


问 句 类 别 相似 度 Sim(Q,C) 。 
分 别提 取 间 名 2,C 的 焦点 词 集合 ; 
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将 Q,C 的 焦点 词 集合 与 表示 问题 类 别 的 词语 集合 做 语义 相似 度 比 


断 间 名 2,C 所 属 的 问 名 类别; 
采用 式 (2) 计 算 问 句 类 别 相 似 度 Sim。 
问 句 句 类 表达 式 相似 度 度量 


a(Q,C) 。 


HNC 句 类 分 析 的 结果 可 以 得 到 
块 。 在 考察 | 


句子 下 层 的 组 成 要 素 , 即 


语义 块 组 成 的 句 类 表达 式 上 的 相似 度 时 ， 
比较 待 检索 问 句 与 候选 问 句 之 间 的 语义 块 组 


成 ， 采 用 量化 的 


方法 计算 句 类 表达 式 的 相似 度 。 语 义 块 是 句 类 的 函数 ， 在 句 
子 中 起 核心 部 分 的 语义 块 称 为 主语 义 块 ， 说 明 部 分 的 语义 块 


称 为 
义 块 


达 式 
义 块 
的 类 


关于 中 文 文本 分 类 的 
征 进行 分 类 。 张 振 豪 等 人 [9 在 


法 提升 了 分 类 效果 。 
中 心 词 、 主 语 、 


究 中 ， 


般 都 是 通过 提取 分 类 特 
文献 [23] 提 出 将 关键 词 应 用 到 


文档 分 类 的 基础 上 ， 在 短文 本 分 类 当中 加 入 关键 词 相似 度 计 
算 ， 选 择 K- 近 邻 (KNN) 和 SVM 作为 分 类 器 ， 较 传统 分 类 方 
高 超 等 人 的 在 词 袋 特征 基础 - 


疑问 词 以 及 疑问 词 相关 成 分 等 问 


F 二 LH 砷 | 公 
上 过 由 有 般 合 


题 类 别 线 有 


词 集 ， 从 问 名 的 句法 或 语义 信息 人 


信息 。 
特征 ， 可 以 通过 构造 疑问 词 注 
征 的 重点 关注 ， 从 而 提高 问 名 


问题 的 主干 词 和 疑问 词 作 为 分 类 特征 ， 


器 对 问 句 进行 分 类 。 本 节 在 文 
社区 问答 系统 的 人 工 标 记 属 


余 本 功 等 人 PI 提 出 问 句 中 的 疑问 词 是 
意 力 矩阵 强化 模型 对 疑问 词 4 


省 
间 


度 挖掘 更 多 对 分 类 有 用 
kt 有 重要 影响 


一 于 汐 


还 剧 


分 类 的 准确 率 。 文 献 [26] 提 : 
之 后 使 用 贝 叶 斯 分 
献 [26] 的 特征 维度 之 上 ， 考 虑 
将 问题 的 分 类 标签 作为 问 句 


滞 头 


分 类 的 另 一 特征 ， 采 用 贝 叶 } 
首先 确定 待 检索 问 句 和 


分 类 器 对 问 句 进行 分 类 。 
吴 选 问 句 分 别 属于 的 问题 类 型 。 


问 句 分 类 方法 按照 上 述 的 提取 分 类 特征 ， 输 入 贝 叶 斯 分 类 器 
进行 分 类 。 之 后 在 计算 问 句 类 型 相似 度 时 ， 考 虑 到 问 句 检索 


的 目的 是 获取 问答 系统 中 已 


办 决 问题 的 答案 ， 分 属 不 同 问题 


类 型 的 答案 虽然 焦点 可 能 不 一 样 ， 但 


答案 的 背景 知识 或 许 对 
比 问题 类 型 相似 度 由 式 (2) 确 定 


同属 一 个 小 类 问题 类 型 


同属 一 个 大 类 问题 类 型 O) 


提问 者 有 一 定 的 参考 价值 ， 因 | 
如 下 : 

1 QO,C 

Sim,(Q,C)=o QO,C 

0 OC 

其 中 ;a 是 不 同 问题 类 型 的 相 


属于 不 同 的 问题 类 型 


似 系数 ,在 参数 调 优 阶段 确定 。 


综 上 问 句 类 别 相似 度 计算 步骤 如 下 : 


算法 1 问 句 类 别 相似 度 
输入 : 问 句 Q,C 。 


甫 语义 块 。 相 似 度 程度 高 


的 句子 往往 具有 较 多 的 相同 语 


， 定 义 如 下 名 类 表达 式 相 似 度 计算 的 公式 : 


Sims(Q,C)=pPSimssan (Q,C) + PSimsss (Q,C) 


G3) 


: B. 记 为 调节 参数 ， 表 示 主 辅 语义 块 相似 程度 在 问 句 表 
相似 度 计算 中 所 占 权 重 ， Simwm 、Simsy 分 别 代 表 主 辅 语 
相似 度 。 借 鉴 文 献 [18] 中 的 计算 方法 ， 按 照 主 辅 语义 块 
别 确定 相似 度 大 小 ， 其 中 : 
1 ”Q,C 具有 相同 的 句 类 符号 
Simwas(Q,C) =1B， Q,C 同属 于 广义 作用 或 效用 名 (4) 
0 ”其 他 情况 
1 FK,=FK, AND C(FK)= C(FK,) 
. PB FKI=FK, AND C(FK)# C(FK,) 
Sim,ssw (@,C) = (5) 


0 FFKIMFK,#G 


其 中 : 系数 有 ,PP 表示 不 同情 形 下 主 辅 


By FKIMFK, OG AND C(FK)# C(FK,) 


语义 块 对 应 的 相似 


程度 ， 均 在 参数 调 优 阶段 确定 ; FfK; 表示 第 i 个 句子 的 辅 语 


义 块 
合 以 


算法 2 问 句 句 类 表达 式 相 似 度 


输入 : 问 多 C,C 。 


输出 : 


集合 ， C(FK) 表示 第 i 个 句子 辅 语义 块 的 内 容 集合 。 综 
上 分 析 ， 问 句 表达 式 相似 度 计算 步骤 如 下 : 


问 句 句 类 表达 式 相似 度 Sims(Q8,C) 。 


a) 对 Q,C 做 HNC 句 类 分 析 ， 得 到 相应 的 句 类 表达 式 集合 ; 


b) 


Simssy (QO,C) ; 


分 别 采 


c) 将 Simswn(@,C) ，Simswy (Q,C) 
类 表达 式 相似 度 。 
2.3 问 句 语义 块 相似 度 度量 


语义 


可 以 
分 析 
块 对 
一 般 
在 一 


时 辅 


分 别 


所 占 


其 中 : 
Simww (Q,C) 表示 Q,C 对 应 的 


式 (4) 和 式 (5) 计 算 主 辅 语义 块 相似 度 Simswn(8,C) ， 


尺 入 式 (3) 得 到 最 终 的 Q,C 问 句 句 


2.2 节 的 问 句 句 类 表达 式 度量 相关 计算 方法 ， 是 句子 表 
层 的 相似 度 计算 方法 ， 本 节 根 据 HNC 句 类 分 析 的 结果 获得 


块 计算 句子 语义 层面 的 相似 度 。 


语义 块 可 以 是 词语 \ 短 语 或 者 是 句子 ,但 都 是 词汇 序列 ， 


利用 文献 [8] 中 介绍 的 方法 计算 词汇 序列 的 相 
十 语义 块 两 种 。 


得 到 的 语义 块 有 主语 义 块 和 


以 度 。 句 类 
中 主语 义 


句子 语义 起 到 支配 作用 ， 辅 语义 块 往往 表示 说 明 部 分 。 


关于 句子 相似 度 的 计算 忽略 
般 自然 语言 句子 层 四 


的 ， 


1 起 合理 


语义 块 对 句子 的 贡献 ， 这 


但 在 社区 问答 系统 中 ， 


由 于 问 名 类 型 有 限 ， 大 量 的 问题 具有 相同 的 句 类 表达 式 ， 这 


语义 块 对 于 衡量 句子 相似 度 就 至 关 重 要 。 
在 计算 问 句 语义 相似 度 时 将 问 名 语义 块 一 一 对 应 起 来 ， 
求 对 应 语义 块 的 相似 度 大 小 。 计 算 公 式 如 下 : 


Simson (Q,C)= Simomm(Q,C) + 7)Sim,o (Q,C) 


Simwm(Q,0) 表示 Q,C 对 应 的 了 


权重 ， 应 设置 为 大 于 0.5 的 值 。 


甫 语义 块 的 相似 度 大 小 。 因 为 主 
语义 块 对 句子 语义 起 主要 作用 ， 系 数 刀 表示 主语 义 块 相似 度 


(6) 
E 语 义 块 的 相似 度 大 小 ; 


综 上 所 述 问 句 语义 块 相 
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似 度 计算 步骤 如 下 : 
法 3 问 句 语义 块 相似 度 


完整 的 问 扣 


,C 的 语义 块 相似 度 Simw(Q,C) 。 


公式 各 部 分 已 经 分 另 
Sims,, (QO, 以 及 Sim,,,(Q.,C) 代入 式 (1) 组 成 


等 : 基于 HNC 名 类 的 社区 问答 系统 问 句 检索 模型 构建 


似 度 计 算 的 词汇 相似 度 剖 
了 #8 来 的 障碍 ， 提 升 了 检索 效 红 


是 出 词汇 i 站 义 相似 度 计算 方法 ， 分 别 得 到 2,C 主 

， Si (@,C) ; 

， Simew(Q,C) 代入 式 (6) 计 算 最 终 的 @,C 荆 
语义 块 相似 度 Sim(Q,C) 。 

至 此 问 句 检索 模型 

将 得 到 Sim.(Q,C) 、 


0 \ 式 。 下 面 通过 实验 验证 


计算 带 


分 ， 解 六 
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了 词汇 鸿沟 问题 给 相似 度 


个 。 


表 3 各 模 型 在 MRR、MAP、AP@1 上 的 对 比 
Table 3 Comparison of models on MRR, MAP, and AP@I 


模型 


AP@1 


MRR 


1 计算 完毕 


本 章 提 昌 


向 量 空 间 模型 
IMPR 
语言 模型 
IMPR 
翻译 模型 
IMPR 


HNC 句 类 分 析 模 型 


IMPR 


1.4762 


1.9048 


2.1905 


0.35 
N/A 
0.67 
0.9143 
0.73 
1.0857 
0.77 
12 


最 后 可 以 看 出 本 文 提出 的 基于 HNC 侣 关 分 析 的 方法 较 


3 以 往 的 方法 在 问 句 检索 效果 ea 可 以 发 现 男 外 
是 出 的 问 句 检索 模型 的 有 效 性 ， 本 文 三 种 模型 都 是 将 问 句 检索 中 的 问 句 行 简化 计算 ， 使 
选取 了 较为 经 由 起 于 向 量 空间 模型 的 检 得 计算 的 问 句 相似 度 计算 结 5 果 只 能 代表 问 名 语义 或 者 词义 相 
索 模 型 、 的 检索 型 以 及 于 翻译 模型 的 检索 以 度 ， 并 不 是 全 面 的 语义 、 语 法 及 语 用 的 完整 相似 度 ， 因 此 
模型 做 比较 分 析 。 言 模型 的 检索 模型 的 算法 是 舍得 检索 结果 失去 一 部 分 相似 问 句 。 实 验 表明 本 文 提出 的 基 
文献 [5] 具 体 实现 区 于 翻译 模型 的 检索 模型 算法 由 文献 于 句法 分 析 的 检索 模型 ， 在 结合 语义 、 语 法 和 语 用 的 多 角度 
[6] 具 Se 选取 以 上 三 个 模型 是 个 模型 简 自 的 相似 度 后 ， 提 高 了 问 句 检索 的 效果 ， 说 明 本 文 方法 的 有 效 
效 ， 究 选 择 以 上 三 个 模型 作为 模型 基础 进而 E。 在 实际 的 实验 验证 过 程 中 ， 基 于 HNC 句 类 分 析 模 型 较 
设计 检索 模型 。 选 择 的 语言 模型 以 及 翻译 模型 的 具体 实现 文 前 三 种 模型 计算 过 程 存在 一 定 的 复杂 性 ， 最 终 相 似 度 计算 维 
献 [5] 和 文献 [6], 是 因为 它 个 型 公认 的 具有 较 度 较 多 ， 使 得 模型 的 可 靠 性 更 高 ， 个 别 维度 相似 度 的 误差 对 

高 检索 性 能 的 实现 作为 参考 模型 增强 了 实验 结果 也 最 终结 果 的 准确 性 影响 较 小 。 

靠 性 。 
， 本 实验 的 数据 集 结束 请 
ei 溃 先 和 办 中 采用 对 此 普 助 HNC 自然 语言 处 理 理论 的 句 类 分 析 方 法 ， 提 出 了 
型 松 。 翻 译 模型 的 训练 语 料 一 种 新 的 基于 句 类 分 析 的 结果 ， 从 语法 、 语 义 和 语 用 三 个 
集 构建 ol 答 社 E 区 上 随机 收集 问答 对 。 度 构建 问 句 检索 模型 , 较 之 前 的 模型 提高 了 问 句 检索 的 性 能 。 
通过 问答 er 于 给 定 的 一 个 查询 ， 首 先 通 过 问 句 分 类 算法 确定 查询 问 句 
似 问 句 ， 人 使 用 和 候选 问 句 的 问 名 类别， 进而 获得 问 句 类 型 相似 度 ， 即 语 用 
经 被 人 工 标记 的 1 140 个 测试 测试 问 句 有 20 个 相似 度 ; 之 后 对 查询 问 句 和 候选 问 名 名 类 分 析 ， 将 
选 问 句 ， 全 亲自 分 时代 似 ; 同时 选择 得 到 的 句 类 分 析 结 果 从 语法 和 语义 两 个 方面 加 以 利用 ， 得 到 
20 个 测试 过 调整 得 到 第 2 章 中 最 终 的 问 句 相似 度 ， 将 问 句 相似 度 作 为 问 句 检索 的 依据 ， 对 
I 下 的 测试 问 句 验 证 候选 问 句 进行 排序 。 实 验 表 明 Wd Deli ia 
各 对 比 模型 。 于 之 前 的 经 典 检索 模型 。 本 文 在 问 句 世 上 考虑 了 间 句 
表 2 模型 参数 设置 类 别 ， 社 区 问答 答 系统 当中 的 用 户 社交 十 分 重要 ， 下 二 
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